iT邦幫忙

2023 iThome 鐵人賽

DAY 8
0

~今天要分享的是「關聯式分析」~

說到關聯式分析,相信大家一定聽過購物籃分析的尿布和啤酒,這是在一家超市觀察到的現象:許多人在買尿布的同時會購買啤酒。
這兩個看似不相關的商品,實際上卻存在著某種關聯,這是我們所想像不到的,所以透過關聯式分析,商家可以參考分析結果以改進商品的擺放位置與辦理促銷活動等策略,來提升客戶體驗。

關聯式分析屬於資料分析的階段,目的是要找到資料間的規則,通常會使用兩個指標來衡量資料之間的關聯度,分別為:

  1. 支持度(Support):衡量某種資料在所有資料種類中出現的比例,也就是關聯式規則裡先驗演算法(apriori)的概念
  2. 信賴度(Confidence):衡量某種資料(A)出現時,另一種資料(B)也出現的機率,也就是關聯式規則裡關聯規則(association rules)的概念

程式碼如下:

#計算支持度
from mlxtend.frequent_patterns import apriori
apriori(df, min_support=n)  #n為最小支持度的閾值,程式僅會篩選出大於等於n的支持度
#計算信賴度
from mlxtend.frequent_patterns import association_rules
association_rules(df, metric='confidence', min_threshold=n)  #n為最小信賴度的閾值,程式僅會篩選出大於等於n的信賴度

在撰寫關聯式分析的程式碼時,如何設定合適的最小支持度閾值及最小信賴度閾值是一個需要思考的問題,因為閾值設定太低的話可能會出現無用的規則,而閾值設定太高的話可能會忽略一些有價值的規則。


上一篇
鐵人賽第七天~索引值及排序
下一篇
鐵人賽第九天~資料視覺化圖形介紹
系列文
打造數據科學之路:資料分析與機器學習的完整指南30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言